单眼深度估计是计算机视觉中的持续挑战。变压器模型的最新进展与该领域的常规CNN相比表现出显着的优势。但是,这些模型如何优先考虑2D图像中的不同区域以及这些区域如何影响深度估计性能,仍然存在差距。探索转移器和CNN之间的差异,我们采用了稀疏的像素方法来对比分析两者之间的区别。我们的发现表明,尽管变形金刚在全球环境和错综复杂的纹理中表现出色,但它们却落后于保留深度梯度连续性。在单眼深度估计中增强了变压器模型的性能,我们提出了深度差异(DGR)模块,该模块通过高阶分化,特征融合和重新校准来完善深度估计。此外,我们利用最佳运输理论,将深度图视为空间概率分布,并采用最佳运输距离作为损失函数来优化我们的模型。实验结果表明,与插入深度梯度改进(DGR)模块集成的模型以及置换损失函数可增强性能,而无需增加室外Kitti和Indoor Nyu-Depth-v2数据集的复杂性和计算成本。这项研究不仅提供了深入估计变压器和CNN之间区别的新见解,而且还为新颖的深度估计方法铺平了道路。
主要关键词
![arxiv:2308.08333v4 [CS.CV] 23 Jul 2024PDF文件第1页](/bimg/c/c1b5afdb8dea03a7b63e7604a3ee6c1ccead0e1b.webp)
![arxiv:2308.08333v4 [CS.CV] 23 Jul 2024PDF文件第2页](/bimg/e/ee1af47c33c897e6aa9ef0e676cafa7ad439efeb.webp)
![arxiv:2308.08333v4 [CS.CV] 23 Jul 2024PDF文件第3页](/bimg/2/257772c577b0fc93cc5d875b69a0797d715299bd.webp)
![arxiv:2308.08333v4 [CS.CV] 23 Jul 2024PDF文件第4页](/bimg/9/9036edb39f1df3a132d877b92f227aaefb5aa2bf.webp)
![arxiv:2308.08333v4 [CS.CV] 23 Jul 2024PDF文件第5页](/bimg/a/a9d6d35af67e3eaf53e546e67852c9cf71239fd3.webp)
